注释数据是应用监督机器学习方法的要求,注释的质量对于结果至关重要。尤其是在处理不确定性多种多样的文化遗产藏品时,注释数据仍然是一项手动,艰巨的任务,由域专家执行。我们的项目始于两套已经注释的中世纪手稿图像,但是基于学术和语言差异,这些图像并不完整,并包含冲突的元数据。我们的目的是为组合数据集创建(1)一组统一的描述性标签,以及(2)对高质量的分层分类,可以用作监督机器学习的有价值的输入。为了实现这些目标,我们开发了一个视觉分析系统,以使中世纪主义者能够合并,正规化和扩展用于描述这些数据集的词汇。单词和图像嵌入的视觉接口以及数据集的注释的共发生,同时允许注释多个图像,建议注释标签候选者并支持组成标签的层次分类。我们的系统本身实现了一种半监督的方法,因为它根据中世纪主义者的反馈更新视觉表示,并且一系列用法场景记录了其对目标社区的价值。
translated by 谷歌翻译
数字取证是在数字设备中提取,保存和记录证据的过程。数字取证中的一种常用方法是从数字设备的主要内存中提取数据。但是,主要的挑战是确定要提取的重要数据。几个关键信息都存在于主内存中,例如用户名,密码和加密密钥,例如SSH会话键。在本文中,我们提出了SmartKex,SmartKex是一种机器学习辅助方法,以从OpenSSH进程的Heap Memory快照中提取会话键。此外,我们发布了一个公开可用的数据集和用于创建其他数据的相应工具链。最后,我们将SmartKex与幼稚的蛮力方法进行比较,并从经验上表明,SmartKex可以以高精度和高吞吐量提取会话键。有了提供的资源,我们打算加强有关数字取证,网络安全和机器学习之间交集的研究。
translated by 谷歌翻译